别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?
别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?2025 年,随着李飞飞等学者将 “空间智能”(Spatial Intelligence)推向聚光灯下,这一领域迅速成为了大模型竞逐的新高地。通用大模型和各类专家模型纷纷在诸多室内空间推理基准上刷新 SOTA,似乎 AI 在训练中已经更好地读懂了三维空间。
2025 年,随着李飞飞等学者将 “空间智能”(Spatial Intelligence)推向聚光灯下,这一领域迅速成为了大模型竞逐的新高地。通用大模型和各类专家模型纷纷在诸多室内空间推理基准上刷新 SOTA,似乎 AI 在训练中已经更好地读懂了三维空间。
现在搞 AI 创作,最缺的其实不是模型,是耐心…为了做个像样的视频,活生生逼成了搬运工。
最近我还真看到一个有点不一样的的 AI 创作比赛,国际奥委会联合阿里云搞了一场「米兰冬奥会 AIGC 全球大赛」,用万相大模型输入一句话,生成 5 到 15 秒冬奥视频即可参赛。不需要专业设备、不需要懂技术、甚至不需要会滑雪,只需要有个脑洞。
文本领域的大模型满分选手,换成语音就集体挂科?大模型引以为傲的多轮对话逻辑,在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge,直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示,强如Gemini 3 Pro在真实场景下的通过率也仅过半数,而GPT-4o Audio的表现更是令人大跌眼镜。
专注于异构算力调度和虚拟化的 AI 初创企业上海密瓜智能科技有限公司(“密瓜智能”)已于近期完成数千万元的天使轮融资,本轮融资由复星创富领投,拙朴投资、种子投资人及产业方强力跟投。自去年 3 月获得超五百万元种子轮融资以来,密瓜智能在不足一年时间内已迅速完成 2 轮融资,展现出强劲的发展势能,其技术前景与商业价值备受市场认可。
「我们想解决的不是 『做 AI 工作流』,是『根本不需要有工作流』。所有要求用户『预先构建工作流』的 Agent 都是错的。」在 Agencize AI 产品发布之前,我们和张浩然聊了聊他对于生产力工具和工作流的看法,以及 Agencize AI 的真正竞争力。
您可能已经感受到了,从2025年开始到如今,全世界都在谈论Agentic AI或Agent(代理式AI)。从董事会到咨询公司,从更高级别的战略到街头巷尾,仿佛只要接入了大模型(LLM),所有的业务流程就能自动运转,效率就能翻倍。
「每隔 10 到 15 年,计算行业就会革新一次,每次都会催生出新形态的平台。现在,有两个转变在同时进行:应用将会构建于 AI 之上,你构建软件的方式也将改变。」
近日,X 知名博主、Hyperbolic 联创 & CEO Yuchen Jin 发帖称,如果在他读博士的时候就有 Claude Code、Gemini 和 ChatGPT 等各类 AI 工具出现,那么也许只要一年就能毕业,而不是用了 5.5 年。
关注我比较久的朋友可能都知道,我用 AI 有个习惯。